返回博客

MedicalAR医疗增强现实系统开发项目分享

MedicalAR医疗增强现实系统开发项目分享

外科医生做手术时,最怕什么?不是刀下错了位置,而是想看的关键信息,不在身边。

写在前面

腹腔镜手术室里,主刀医生的面前是一块显示屏。

屏幕上放着摄像头传回来的画面,旁边是监护仪的数据,墙上可能还挂着一台参考用的显示器。

如果要同时看CT影像,对不起——要么让助手翻拍一张发到屏幕上,要么主刀自己扭头去看另一块屏幕。

每一次扭头,都是对手术节奏的打断。

而外科手术,恰恰是最不允许"分心"的事情之一。

今天想分享的,是我们为医疗场景定制开发的一套增强现实系统——MedicalAR。

它的目标很简单:让医生在手术过程中,不用扭头、不用抬手,就能同时看到腹腔镜画面、监护仪数据、和CT影像。

所有信息,就浮在他的视野里。


一、需求从哪里来?

这个项目的需求,来自于一次与医疗团队的沟通。

在腹腔镜手术中,主刀医生需要同时关注多个信息源:

  • 腹腔镜画面:手术操作区域的实时画面
  • 监护仪数据:心率、血压、血氧等生命体征
  • CT影像:术前规划的参考图像

传统模式下,这些信息分散在不同屏幕的不同位置。医生需要不断扭头、转头、低头看监护仪,抬头看腹腔镜,再扭头看CT——来回切换注意力,既累又容易出错。

医生的诉求很直接:

"能不能把这些东西都叠在一起,放在我眼前?我看哪里,它们就跟到哪里。"

这,就是AR技术在医疗场景最朴素也最有价值的应用——信息随视野移动,让医生的注意力始终聚焦在手术本身。


二、技术选型:为什么是WebRTC+SRS+Rokid?

2.1 核心挑战:低延迟的视频推流

AR医疗系统的核心技术难点,不在AR本身,而在视频推流

手术不是静态画面,是实时视频流。延迟超过500毫秒,医生看到的画面就会与实际操作不同步,这在手术场景下是不可接受的。

我们的技术选型:

技术组件选型理由
实时传输协议WebRTC 3.0.0原生支持浏览器/多平台,低延迟,适合实时视频
流媒体服务器SRS 5.0国产开源流媒体服务器,支持WebRTC,性能稳定
网络通信框架MirrorUnity网络同步库,稳定可靠
开发引擎Unity 2022.3跨平台支持,AR/VR生态成熟
AR眼镜Rokid AR眼镜国产空间计算眼镜,支持手势+射线交互

2.2 系统架构:三端协同

[腹腔镜/监护仪] → [USB采集卡] → [Windows推流服务器] → [SRS流媒体] → [Rokid AR眼镜]
                                                  ↓
                                            [CT图片数据]
                                                  ↓
                                              [同步传输]

三端分工明确:

  • 推流服务器(PC端):采集腹腔镜和监护仪的实时视频,通过WebRTC推送到SRS流媒体服务器,同时负责CT图片的文件传输
  • SRS流媒体服务器:作为视频中转站,将实时视频流分发给连接的AR眼镜客户端
  • AR客户端(Rokid眼镜):接收视频流和CT图片,在视野中以AR面板的形式叠加显示,支持手势和射线交互

三、功能设计:三个面板,一个视野

3.1 三区域AR显示

AR眼镜的视野中,划分了三个独立的显示区域:

区域一:腹腔镜画面(左眼侧)

实时接收并显示腹腔镜摄像头传回的视频画面。医生低头做手术时,这个画面就"浮"在他的视野边缘,随时可瞥。

区域二:监护仪数据(右侧)

将监护仪的视频信号推流到AR眼镜,以面板形式叠加显示。心率、血压、血氧——医生无需扭头,余光即可看到患者当下的生命体征。

区域三:CT影像(居中或下方)

这是最有价值的部分。

医生可以在术前将患者的CT图片导入系统,AR眼镜中会以高对比度的面板叠加显示CT影像。做手术的同时,随时参考术前规划的关键切片。

3.2 智能面板交互

手势交互:

Rokid AR眼镜支持手势识别。医生摊开手掌对准摄像头,握拳,再舒展——即可从控制器射线模式切换到手势交互模式。

用手势可以完成:

  • 拖拽面板,调整显示位置
  • 点击"+"、"-"按钮,缩放面板大小
  • 点击"重置"按钮,一键恢复所有面板到初始状态

自动避让:

当医生缩放某个面板时,系统会自动调整其他面板的位置,防止内容相互遮挡。这个细节看似简单,但在实际手术场景中非常实用——医生不需要停下来手动调整布局。

3.3 多人同步:教学的利器

系统支持多个AR眼镜同时连接同一个推流服务器。

这意味着什么?

主刀医生在手术时,戴着AR眼镜的实习生、进修医生、甚至远程观摩的专家——都可以在同一时刻看到完全一致的实时画面。

"我看到什么,你们就看到什么。"

这比传统手术室里的"看屏幕"要自然得多。不用挤在同一块屏幕前,不用忍受反光和视角限制,每个人都有自己的"私人显示器",内容完全同步。


四、技术难点与突破

难点一:100-500毫秒的生死线

延迟是整个系统最核心的指标。

手术操作与视频画面之间的延迟如果超过500毫秒,医生根据画面做出的判断就会与实际操作产生偏差——抬手切了一刀,画面里刀口还在原位,后果不堪设想。

我们的优化策略:

  • 局域网专线传输,避免公网抖动
  • WebRTC原生UDP传输协议,绕过TCP握手延迟
  • SRS流媒体服务器本地部署,减少中转节点
  • 视频编码采用低延迟H.264 Profile

最终实测延迟稳定在100-300毫秒区间,满足手术场景要求。


难点二:多路视频的带宽管理

腹腔镜(1080p30fps)+ 监护仪(1080p30fps)+ CT图片同步传输——三路数据同时跑,带宽压力不小。

实测带宽需求:

画质单路带宽双路合计
高清 1080p30fps8Mbps16Mbps
标清 720p30fps4Mbps8Mbps
流畅 480p24fps2Mbps4Mbps

系统采用自适应码率策略,根据网络状况自动调整传输质量。带宽好的时候跑高清,带宽紧张时自动降级到标清,保证基本可用。


难点三:医疗设备的兼容性

腹腔镜、监护仪、超声设备……不同品牌、不同型号的医疗设备,输出接口五花八门。

  • 有的用HDMI输出
  • 有的用VGA输出
  • 有的只有专有视频接口

我们的解决方案:

统一用USB采集卡做信号采集。针对不同接口类型,选用对应的采集卡型号(Elgato HD60 S+、AVerMedia、Blackmagic、Magewell等),在服务器端统一转换为标准视频流,再进行推流。


难点四:AR眼镜的佩戴舒适度

医生做手术可能要连续站几个小时。AR眼镜的重量、发热、佩戴舒适度,都会直接影响使用意愿。

Rokid AR眼镜在消费级AR眼镜中重量控制较好,但我们依然针对长时间佩戴做了优化:

  • 面板渲染尽量精简,减少GPU发热
  • UI交互区域设计在视野外围,减少眼球追踪负担
  • 操作按钮尺寸放大,减少误触

五、部署与落地

5.1 医院部署流程

整个系统部署分为三个步骤:

第一步:SRS流媒体服务器部署

在医院的Windows工作站上安装SRS流媒体服务器,配置WebRTC相关端口(1935、8000、8080、1985、7777),配置防火墙放行规则。

第二步:推流服务器部署

在同网段的工作站上部署MedicalAR推流程序,连接USB采集卡和医疗设备,配置设备参数。

第三步:AR客户端部署

在Rokid AR眼镜上安装MedicalAR客户端APK,配置网络权限。应用启动后自动发现局域网内的推流服务器,一键连接。

全流程部署时间:约2小时。


5.2 典型使用场景

场景一:腹腔镜胆囊切除术

主刀医生戴着AR眼镜,视野中同时叠加显示:

  • 腹腔镜摄像头实时画面(操作区域)
  • 监护仪生命体征(心率、血压、血氧)
  • 术前CT关键切片(胆管走形参考)

医生全程无需扭头,所有信息触手可及。

场景二:术中教学观摩

进修医生和实习生各自戴着AR眼镜,可以实时观看与主刀完全一致的视野。无需挤在手术台旁的屏幕前,也不用担心反光和视角问题。

场景三:远程专家会诊

专家不在手术室,通过连接同一路视频流,可以在远程实时看到手术画面,结合AR视野中的CT影像,给出实时指导。


六、写在最后

医疗场景,是AR技术最难啃、也最有价值的应用方向之一。

它不同于娱乐场景——用户不介意稍有延迟,不介意画面有颗粒感。医疗场景的每一个参数,都关乎手术安全和诊断准确性。

在这个项目里,我们学到最重要的一课是:

医疗AR的核心不是"炫技",而是"克制"。

不要叠加太多信息,不要让UI干扰视野,不要让延迟打断操作。所有设计都要围绕"让医生更专注"这个目标展开。

MedicalAR解决的不只是"看不到"的问题,而是注意力管理的问题。

让信息追上医生的视野,而不是让医生去追信息。

这是AR在医疗场景真正的价值所在。


如您有医疗AR项目、医疗培训系统、手术示教系统开发需求,欢迎与我们交流。


项目信息

  • 项目名称:MedicalAR医疗增强现实系统
  • 技术平台:Unity 2022.3 + WebRTC 3.0.0 + SRS 5.0 + Rokid AR眼镜
  • 核心功能:腹腔镜/监护仪实时推流 + CT图片同步 + 三区域AR叠加显示 + 手势/射线交互 + 多人同步
  • 延迟性能:100-300ms(局域网环境)
  • 分辨率:支持1920×1080@30fps
  • 交付单位:云南云感数字科技有限公司
分享文章